# Desenvolvimento de uma arquitetura básica com Verilog HDL para síntese do processador BA22-DE em FPGA

Eduardo Furtado Sá Corrêa

Departamento de Ciência da Computação
Universidade de Brasília
Brasília, Brasil
eduardoxfurtado@gmail.com

Ricado Pezzoul Jacobi
Departamento de Ciência da Computação
Universidade de Brasília
Brasília, Brasil
rjacobi@cic.unb.br

Abstract—This paper presents the process involved in the development of a basic architecture using the verilog HDL to synthesize the BA22-DE processor on a FPGA starting from a simulation ready code and the processor's documentation. With the use of a base simulation model to drive the synthesis development and a code profiling approach, it was possible to develop a system architecture to provide a minimalist environment for the processor to work. All designs have been synthesized and tested running a simple piece of software with FPGA's and the results insures the correctness of the design and sets the path for future development in order to run more complex software on the BA22-DE processor.

#### I. INTRODUÇÃO

Os processadores da família BA2x são fáceis de programar e tecnicamente capazes de competir com processadores 32-bit tradicionais. Possuí um ISA inovador, que conta com código extremamente denso que reduz o uso de memória e cache e ultimamente reduz o consumo de energia, e apresenta performance melhor do que outras ISAs como MIPS e ARM. (FONTE: DO SITE DELES...). Simulação e síntese são processos complementares durante o desenvolvimento de um modelo, entretanto ambos modelos podem produzir resultados muito diferentes. A descrição de um modelo para simulação tende a ser mais simples por não levar em consideração tantos elementos como na síntese, além de possuir mais constructs que facilitam a descrição do modelo. Porém, a síntese é objetivo final de qualquer modelo, e requer código extremamente correto, o que faz com que a codificação e teste sejam tarefas bastante demoradas e que requerem tempo. Projetar para síntese partindo de uma simulação que descreve como se deve comportar o sistema possibilita o desenvolvimento rápido de implementações de arquiteturas de hardware. Junto da

documentação de como funciona o processador, essa proposta praticamente elimina a fonte de erros do projeto.

Outra metodologia que acelera o tempo de projeto é a realização de um *profilng* do algoritmo a ser executado pelo processador e selecionam-se apenas as partes essenciais do hardware para o funcionamento do sistema a serem descritas para a arquitetura. Os módulos restantes ficam desligados, o que economiza espaço no chip e diminui o consumo de energia. Isto é, se gasta tempo de projeto de hardware apenas com aqueles módulos que devem estar presentes para a execução de um software específico no processador.

Nesta pesquisa, utilizou-se buscou-se aproveitar um modelo pronto, feito para simulação, como base para implementar uma arquitetura sintetizável do processador BA22-DE em uma FPGA e um teste com um simples software.

Este esforço visa testar a performance de execução do algoritimo de decodificação de áudio AAC, desenvolvido pela equipe da UnB, no processador BA22 como uma solução em embebidos. No futuro, espera ser possível utilizar a estratégia de *co-design* de Hardware e Software em sistemas embarcados para substituir o processador NIOS II pelo BA22 como processador de propósito geral.

Na literatura, encontramos a documentação do processador com o manual "Integration Manual" que apresenta como deve ser feito para integrar o BA22 em um design, e o documento "Hardware Specfication" que descreve o processador em detalhes.

Este artigo é organizado da seguinte forma: a Seção 2 apresenta a metodologia utilizada; a Seção 3 explica o desenvolvimento do módulo inicializador de memória; a Seção 4 explica o desenvolvimento do módulo gerador de clocks; a Seção 5 explica o desenvolvimento do módulo monitor; a Seção 6 apresenta os resultados obtidos; e, por fim, a Seção 7 apresenta as conclusões do trabalho.

#### II. METODOLOGIA

O primeiro passo para o desenvolvimento deste projeto foi realizar a simulação do funcionamento do processador para observar o comportamento dos sinais gerados pelo sistema, a leitura da documentação e o estudo do código não sintetizável já existente. Foi possível realizar um *profiling* de que módulos estavam sendo ativados com a execução de um algorítimo simples, através do estudo dos sinais gerados, assim identificando os módulos indispensáveis ao design e que deveriam ser implementados para síntese. A Figura 1 mostra o diagrama de blocos do ambiente de simulação.

Identificou-se que o Gerador de Clock, o inicializador de memória, o monitor e o barramento AMBA eram módulos que deveriam ser totalmente reescritos para a síntese. Utilizando a linguagem de descrição de hardware Verilog, primeiramente foi reescrito o módulo inicializador de memória, que tem a função de copiar desde uma ROM, feita utilizando VHDL, contendo o código binário executável. Em seguida foi implementado o módulo gerador de Clock e o resto do design foi adaptado para as novas entradas. Em seguida eliminou-se a necessidade do barramento por meio de simplificações em como era feito o acesso à memória, e um "dummy" foi usado como barramento que dá permissão total ao processador, único elemento que acessa a memória, e finalmente o módulo monitor foi adaptado para as novas entradas e saídas. Por fim, essa arquitetura foi prototificada e testada em um FPGA.

Figura 1. Diagrama de Bloco do ambiente de simulação

#### III. DESENVOLVIMENTO DO MÓDULO INITRAM

O Inicializador de memória basicamente copia de uma memória a outra, neste caso da ROM para a RAM. O módulo faz isso de 4 em 4 endereços de memória, e ao terminar, é responsável por ligar o processador, que aguarda o fim do carregamento para começar a trabalhar. Tomou-se o cuidado de gravar na posição X enquanto se estava lendo da posição X+1. Trata-se de uma RAM de 16kbs. A figura 2 mostra o código da máquina de estados deste módulo.

```
always @ (posedge clk)
begin
        addr rom <= 0;
        addr ram <= 0;
        byte_en <= 4'b1111; //estamos copiando de 4 em 4,
        state <= s0;
                            //então usa-se as 4 partes do
        load_done <= 0;</pre>
                            //enderecamento da ram
    else begin
        case (state)
            s0: begin
                addr ram <= 0;
                addr_ram[13:0] <= {addr_rom, 2'b00}; //concatena
                addr_rom <= addr_rom + 1; //com o shift para
                state <= s1;
                                             //passar de 4 em 4.
            end
            s1: begin
                addr ram <= 0;
                addr_ram[13:0] <= {addr_rom, 2'b00};
                addr_rom <= addr_rom + 1;
                if (addr rom >= (2**12)-1) begin
                    state <= s_done;
                end
            end
            s_done: begin
                load_done <= 1;</pre>
                state <= s_done;
                byte en <= 0;
                addr ram <= 0;
            end
            default:
                state <= s0;
        endcase
```

Figura 2. Código da máquina de estados do inicializador de memória

#### IV. DESENVOLVIMENTO DO MÓDULO CLGEN

O módulo do gerenciamento de energia do BA22-DE usa um *clock* diferente do restante do design. Além disso, a execução do software na placa é muito rápido e por isso foi feito um módulo auxiliar ao gerador de *clock* para atrasar o mesmo, possibilitando acompanhar a execução do programa de teste passo a passo. A Figura 3 mostra o código do módulo clgen. A figura 4 mostra o código do atrasador de *clock*.

```
always @ (posedge clk)
begin
    if ( rst == 0 ) begin
        contador_load_done
                            = 6'b0000000:
                            = 2'b00;
        contador
        pm clk o
                            = 1;
                            = 0;
        rst o
        `ifdef BA22 PM IMPLEMENTED
            pm_stall_o
                            = 1'b0:
         endif
    end
    else begin
        if(contador == 2'b01) begin
            pm clk o <= ~pm clk o;
            contador = 2'b00;
        end
        else begin
            contador <= contador +1;
        if ( load done == 1 ) begin //delay=60 para rst ativo
            contador load done = contador load done + 1;
            if (contador_load_done == 59) begin
                rst_o = 1;
            end
    end
end //end always
```

Figura 3. Código do gerador de clock

```
always @ (posedge CLOCK_50)
begin
    if(KEY[0] == 0) begin
        CLOCK LENTO
                       = 1'b0:
        clock_slower
                        = 18'b00000000000000000;
    else begin
        if (SW == 0) begin
            CLOCK_LENTO <= ~CLOCK_LENTO;
        end
        if ( SW == 1 ) begin
            if( clock_slower == 18'b111101000010010000 ) begin
                CLOCK LENTO <= ~CLOCK LENTO;
                clock slower = 0;
                clock slower = clock slower + 1;
        end
    end
```

Figura 4. Código do atrasador de *clock* 

#### V. DESENVOLVIMENTO DO MÓDULO MONITOR

O módulo monitor foi projetado com o objetivo de mostrar na placa por meio de LEDs o estado em que se encontra o sistema, inicializando a memória ou após a inicialização, o que estava sendo executado no processador e aviso de fim da execução.

# VI. RESULTADOS

O sistema foi prototificado na placa de desenvolvimento DE2-115, que possui uma FPGA Altera Cyclone IV E, modelo EP4CE115F29C, apresentada na figura 5.



Figura 5. Placa de prototipação DE2-115

O *clock* da placa teve sua frequência dividida por 500000, fazendo com que o tempo de execução total do teste fosse de cerca de dois minutos. Dessa forma foi possível acompanhar o andamento do sistema, desde que recebido o sinal de *reset*, carregamento da RAM e execução do código C apresentado abaixo.

O resultado da síntese mostrou que o sistema desenvolvido utiliza 17.413 elementos lógicos, 3758 registros, 18 pinos, 1.361.984 bits de memória interna, 8 multiplicadores de 9 bits e nenhum PLL.

# VII. CONCLUSÃO

Neste trabalho desenvolveu-se uma arquitetura em hardware para a síntese do processador de embebidos BA22-DE. Optou-se por uma metodologia com utilização de um design para simulação para realizar um *profiling* do que seria necessário para o funcionamento do processador. O sistema desenvolvido foi prototificado em uma FPGA. Os resultados mostram que o objetivo foi alcançado.

Cabe mencionar que este é apenas o primeiro passo para viabilizar a decodificação de áudio AAC em tempo real no processador BA22-DE e após isso, substituir o processador NIOS II pelo BA22 para utilizar o processador BA22 como uma solução de *co-design* com o decodificador de áudio AAC.

# VIII. AGRADECIMENTOS

Ao CNPq por possibilitar este trabalho. A Renato Coral Sampaio, que foi de grande ajuda desde o início.

# IX. REFERÊNCIAS

A estrutura discutida acima foi baseada nas fontes abaixo, acrescida da opinião dos autores e colaboradores.

- CAST; BA22 32-bit RISC Processor Integration Manual, 2012. BA22-INM-4.0P06-103, IP Product Version 4.0p06.
- CAST; BA22 32-bit RISC Processor Hardware Specification, 2012. BA22-DES-4.0P06-104, IP Product Version 4.0p06.
- Thomas & Moorby's; The Verilog Hardware Description Languague; Fifth Edition; ISBN 1-4020-7089-6; 2002 Kluwer Academic Publishers.
- Stuart Sutherland and Don Mills; Verilog and System Verilog Gotchas – 101 Common Coding Errors and How to Avoid Them; ISBN 978-0-387-71714-2; 2007 Springer.